flashattention

小白学大模型：大模型加速的秘密 FlashAttention 1/2/3

在 Transformer 架构中，注意力机制的计算复杂度与序列长度（即文本长度）呈平方关系。这意味着，当模型需要处理更长的文本时（比如从几千个词到几万个词），计算时间和所需的内存会急剧增加。最开始的标准注意力机制存在两个主要问题：